其他
OpenAI公开Dota 2论文:胜率99.4%,「手术」工具连续迁移训练
选自OpenAI
作者:Berner等机器之心编译参与:熊猫
OpenAI 的 Dota 2 人工智能智能体项目 OpenAI Five 已经经历了三年的发展。在 2019 年 4 月 13 日,OpenAI Five 成为了首个战胜了世界冠军战队的 AI 系统,但是当时 OpenAI 没有公开相关的论文和算法细节。近日,OpenAI 终于发布了描述该项目的论文《Dota 2 with Large Scale Deep Reinforcement Learning》。
Dota 2 游戏对战发生在一个方形的地图中,两支队伍各自保卫位于对角线上的己方基地。每支队伍的基地都有一个远古遗迹(ancient);
当某方的远古遗迹被敌方摧毁时,游戏便宣告结束。每支队伍由 5 位玩家组成,每位玩家控制一个英雄单位,每个英雄都有自己独特的技能;
游戏期间,每方都有持续派出的「小兵(creep)」单位,但这些小兵不由玩家控制,它们会按路径向敌方基地前进,并会攻击任何出现在其攻击范围内的敌方单位和建筑;
玩家可从小兵收集金币和经验等资源,然后可通过购买物品和升级来提升英雄的战斗力。
长时间对局。Dota 2 游戏一般会以 30 帧每秒的速度持续大约 45 分钟。OpenAI Five 每 4 帧选择一个动作,则每局比赛需要执行大约 20000 步。比较一下,国际象棋一般持续 80 步,围棋是 150 步。
部分可观察的状态。每支队伍都只能看见己方单位和建筑附近的部分游戏状态;地图中的其余部分都是隐藏起来的。如果要玩得好,需要基于不完整的数据进行推断以及建模敌方的行为。
高维度的动作和观察空间。Dota 2 有一个很大的地图,地图中有 10 个英雄、几十个建筑、几十个非玩家单位,另外还有神符、树和侦查守卫(眼)等长尾的游戏特征。
英雄池只有 17 个英雄——在常规游戏时,玩家是在比赛前从 117 个英雄中选择一个,而 OpenAI Five 目前只支持其中 17 个;
不支持能让玩家同时暂时控制多个单位的物品(幻象神符、支配头盔、幻影斧、死灵书)。OpenAI 移除这些物品的原因是控制多个单位会引入额外的技术复杂性。
点击阅读原文,立即访问。